使用强化学习解决复杂的问题必须将问题分解为可管理的任务,无论是明确或隐式的任务,并学习解决这些任务的政策。反过来,这些政策必须由采取高级决策的总体政策来控制。这需要培训算法在学习这些政策时考虑这种等级决策结构。但是,实践中的培训可能会导致泛化不良,要么在很少的时间步骤执行动作,要么将其全部转变为单个政策。在我们的工作中,我们介绍了一种替代方法来依次学习此类技能,而无需使用总体层次的政策。我们在环境的背景下提出了这种方法,在这种环境的背景下,学习代理目标的主要组成部分是尽可能长时间延长情节。我们将我们提出的方法称为顺序选择评论家。我们在我们开发的灵活的模拟3D导航环境中演示了我们在导航和基于目标任务的方法的实用性。我们还表明,我们的方法优于先前的方法,例如在我们的环境中,柔软的演员和软选择评论家,以及健身房自动驾驶汽车模拟器和Atari River RAID RAID环境。
translated by 谷歌翻译
在本文中,我们研究了半发布反馈下的随机组合多武装强盗问题。虽然在算法上完成了很多工作,但优化线性的预期奖励以及一些一般奖励功能,我们研究了一个问题的变种,其中目标是风险感知。更具体地说,我们考虑最大化条件价值(CVAR)的问题,这是一个仅考虑最坏情况奖励的风险措施。我们提出了新的算法,最大化了从组合匪盗的超级臂上获得的奖励的CVAR,用于两个高斯和有界手臂奖励的两种情况。我们进一步分析了这些算法并提供了遗憾的界限。我们认为,我们的结果在风险感知案例中提供了对组合半强盗问题的第一个理论见解。
translated by 谷歌翻译
Conversational AI has become an increasingly prominent and practical application of machine learning. However, existing conversational AI techniques still suffer from various limitations. One such limitation is a lack of well-developed methods for incorporating auxiliary information that could help a model understand conversational context better. In this paper, we explore how persona-based information could help improve the quality of response generation in conversations. First, we provide a literature review focusing on the current state-of-the-art methods that utilize persona information. We evaluate two strong baseline methods, the Ranking Profile Memory Network and the Poly-Encoder, on the NeurIPS ConvAI2 benchmark dataset. Our analysis elucidates the importance of incorporating persona information into conversational systems. Additionally, our study highlights several limitations with current state-of-the-art methods and outlines challenges and future research directions for advancing personalized conversational AI technology.
translated by 谷歌翻译
变压器与卷积编码器结合使用,最近已使用微型多普勒特征用于手势识别(HGR)。我们为HGR提出了一个基于视觉转换器的架构,该体系结构具有多腹腔连续波多普勒雷达接收器。所提出的架构由三个模块组成:一个卷积编码器,带有三个变压器层的注意模块和一个多层感知器。新型的卷积解码器有助于将具有较大尺寸的斑块喂入注意力模块,以改善特征提取。用与两种抗连续波多普勒雷达接收器相对应的数据集获得的实验结果(Skaria等人出版)证实,所提出的体系结构的准确性达到了98.3%,从而实质上超过了现状的阶段。 - 在使用的数据集上进行艺术。
translated by 谷歌翻译
交通灯检测对于自动驾驶汽车在城市地区安全导航至关重要。公开可用的交通灯数据集不足以开发用于检测提供重要导航信息的遥远交通信号灯的算法。我们介绍了一个新颖的基准交通灯数据集,该数据集使用一对涵盖城市和半城市道路的狭窄角度和广角摄像机捕获。我们提供1032张训练图像和813个同步图像对进行测试。此外,我们提供同步视频对进行定性分析。该数据集包括第1920 $ \ times $ 1080的分辨率图像,覆盖10个不同类别。此外,我们提出了一种用于结合两个相机输出的后处理算法。结果表明,与使用单个相机框架的传统方法相比,我们的技术可以在速度和准确性之间取得平衡。
translated by 谷歌翻译
预测周围动态剂的未来轨迹是自动驾驶中的必要要求。这些轨迹主要取决于周围的静态环境以及这些动态剂的过去运动。此外,代理意图的多模式性质使轨迹预测问题更具挑战性。所有现有模型都同样考虑目标剂以及周围的剂,而无需考虑物理特性的变化。在本文中,我们为自动驾驶中的多模式轨迹预测提供了一个新颖的基于深度学习的框架,该框架考虑了目标及周围车辆的物理特性,例如对象类及其物理尺寸通过加权注意模块,从而改善预测的准确性。我们的模型在Nuscenes轨迹预测基准测试中取得了最高的结果,这些模型是使用栅格图来输入环境信息的模型。此外,我们的模型能够实时运行,达到300 fps的高推理率。
translated by 谷歌翻译
许多现有人员的重新识别(RE-ID)方法取决于特征图,这些特征图可以分区以定位一个人的部分或减少以创建全球表示形式。尽管部分定位已显示出显着的成功,但它使用了基于位置的分区或静态特征模板。但是,这些假设假设零件在给定图像或其位置中的先前存在,忽略了特定于图像的信息,这些信息限制了其在挑战性场景中的可用性,例如用部分遮挡和部分探针图像进行重新添加。在本文中,我们介绍了一个基于空间注意力的动态零件模板初始化模块,该模块在主链的早期层中使用中级语义特征动态生成零件序列。遵循自发注意力的层,使用简化的跨注意方案来使用主链的人体部分特征来提取各种人体部位的模板特征,提高整个模型的判别能力。我们进一步探索零件描述符的自适应加权,以量化局部属性的缺失或阻塞,并抑制相应零件描述子对匹配标准的贡献。关于整体,遮挡和部分重新ID任务基准的广泛实验表明,我们提出的架构能够实现竞争性能。代码将包含在补充材料中,并将公开提供。
translated by 谷歌翻译
在这项努力中,我们考虑一种加强学习(RL)技术,用于解决具有复杂奖励信号的个性化任务。特别是,我们的方法是基于状态空间聚类,使用简单的$ k $ -means算法以及网络架构和优化算法的传统选择。数值示例展示了不同RL程序的效率,并用于说明该技术加速了代理的学习能力,并不限制代理商的性能。
translated by 谷歌翻译
使用胶囊网络的原始点云处理在分类,重建和分割中被广泛采用,因为它能够保留输入数据的空间协议。然而,基于现有的大多数基于胶囊的网络方法是计算繁重的,并且在将整个点云作为单个胶囊代表整个点云。我们通过提出具有参数共享的小说卷积胶囊架构,通过提出Pointcaps来解决现有的胶囊网络基础方法的这些限制。除了点击措施之外,我们提出了一种新颖的欧几里德距离路由算法和独立于独立的潜在潜在表示。潜在的表示捕获了点云的物理解释的几何参数,具有动态欧几里德路由,Pointcaps阱 - 代表点的空间(点对部分)关系。 Pointcaps的参数具有显着较低的参数,并且需要显着较低的拖鞋,同时实现与最先进的胶囊网络相比,对原始点云的可比分类和分割精度实现更好的重建。
translated by 谷歌翻译
视频中的实时和在线行动本地化是一个关键但极具挑战性的问题。准确的行动定位需要利用时间和空间信息。最近的尝试通过使用计算密集的3D CNN架构或高度冗余的双流架构来实现这一目标,使它们既不适用于实时在线应用程序。为了在高度挑战的实时约束下完成活动本地化,我们提出利用基于快速高效的关键点的边界框预测到空间本地化动作。然后,我们介绍一种管链接算法,其在闭塞存在下在时间上保持动作管的连续性。此外,我们通过将时间和空间信息与级联输入组合到单个网络的级联输入来消除对双流架构的需要,允许网络从两种类型的信息中学习。使用结构相似索引图有效地提取了时间信息,而不是计算密集的光学流量。尽管我们的方法简单,我们的轻质端到端架构在挑战的UCF101-24数据集上实现了最先进的框架地图,达到了74.7%,展示了以前最好的在线方法的性能增益为6.4% 。与在线和离线方法两者相比,我们还实现了最先进的视频地图结果。此外,我们的模型实现了41.8 FPS的帧速率,这是对当代实时方法的10.7%。
translated by 谷歌翻译